Gyazo URLとOCRとタイトルを合体させるscript
Gyazo ID, metadata, OCR textのデータを一つのjsonにまとめる
2021-05-10
13:33:09 一部のページだけJSONにまとめられるoptionをつけた
2021-05-09 16:27:31 タグを埋め込めるようにした
各入力データの形式
Gyazo data
各ページのGyazo URLの配列
OCR text
各ページのテキストデータの配列
各ページの見出しみたいなもの
table:titles
目次 page-1
土木工学とは page-2
土木工学の分野一覧 page-3
技術者倫理 page-4
専門基礎 page-5
索引 page-6
最初2つを順番にlocal環境からuploadすると、出力ファイルが作成される
出力ファイルの型
{url: string; title: string; text: string;}[]
code
code:script.js
import {getLocalFiles} from '../簡単にfileをbrowserに取り込むscript/script.js';
import {parse} from '../papaparse@5.3.0/script.js';
export async function join(title, metadataURL, {start, end} = {}) {
// dataの取得
const res = await fetch(metadataURL);
const {data: table} = parse(await res.text());
const imageFile = await getLocalFiles({accept: '.json'});
const images = JSON.parse(await imageFile.text());
const textFile = await getLocalFiles({accept: '.json'});
const texts = JSON.parse(await textFile.text());
start = start ?? 0;
end = end ?? images.length - 1;
// JSONを作る
const data = images
.slice(start, end + 1)
.map((url, i) => ({
url,
}));
const json = {title, pages: data, lastModified: textFile.lastModified};
console.log(json);
return json;
}